Partición causal preregistrada de elicitación y diseño de recompensas en RLVR Investigación revela que el estimador ingenuo en RLVR mezcla elicitación y diseño de recompensas. Un nuevo método de partición causal permite auditar resultados. 2026-06-05 · 2 min